Validation statistique des cartes de Kohonen en apprentissage supervisé
نویسندگان
چکیده
Résumé. En apprentissage supervisé, la prédiction de la classe est le but ultime. Plus largement, on attend d'une bonne méthodologie d'apprentissage qu'elle permette une représentation des données susceptible de faciliter la navigation de l'utilisateur dans la base d'exemples et d'aider au choix des exemples et des variables pertinents tout en assurant une prédiction de qualité dont on comprenne les ressorts. Di érents travaux ont montré l'aptitude des graphes de voisinage issus des prédicteurs à fonder une telle méthodologie, ainsi le graphe des voisins relatifs de Toussaint. Cependant, la complexité de leur construction, en O(n3), reste élevée. Dans le cas de données volumineuses, nous proposons de substituer aux graphes de voisinage les cartes de Kohonen construites sur les prédicteurs. Après un bref rappel du principe des cartes de Kohonen en apprentissage non supervisé, nous montrons comment celles-ci peuvent fonder une stratégie d'apprentissage optimisée. Nous proposons ensuite d'évaluer la qualité de cette stratégie par une statistique originale qui est étroitement corrélée au taux d'erreur en généralisation. Di érentes expérimentations montrent la faisabilité de cette approche. On dispose alors d'un critère able pour sélectionner les individus et les attributs pertinents. Mots-clefs : apprentissage supervisé, cartes de Kohonen, validation statistique
منابع مشابه
Sous-échantillonnage topographique par apprentissage semi-supervisé
Résumé. Plusieurs aspects pourraient influencer les systèmes d’apprentissage existants. Un de ces aspects est lié au déséquilibre des classes dans lequel le nombre d’observations appartenant à une classe, dépasse fortement celui des observations dans les autres classes. Dans ce type de cas assez fréquent, le système d’apprentissage a des difficultés au cours de la phase d’entraînement liées au ...
متن کاملPondération locale des variables en apprentissage numérique non-supervisé
Résumé. Dans cet article, nous proposons une nouvelle approche de pondérations des variables durant un processus d’apprentissage non supervisé. Cette méthode se base sur l’algorithme « batch » des cartes auto-organisatrices. L’estimation des coefficients de pondération se fait en parallèle avec la classification automatique. Ces pondérations sont locales et associées à chaque référent de la car...
متن کاملModélisation de tables de contingence par arbres d'induction
RÉSUMÉ. Cet article est consacré à l’évaluation statistique des descriptions de tables de contingence fournies par les arbres d’induction. On se limite au cas particulier de données catégorielles. Trois aspects sont successivement abordés. i) La nature de l’ajustement en apprentissage supervisé, où l’on souligne la distinction entre prédiction de valeurs individuelles et prédiction de leur repr...
متن کاملA robust method for partitioning the values of categorical attributes
Résumé. Dans le domaine de l’apprentissage supervisé, les méthodes de groupage des modalités d’un attribut symbolique permettent de construire un nouvel attribut synthétique conservant au maximum la valeur informationnelle de l’attribut initial et diminuant le nombre de modalités. Nous proposons ici une généralisation de l’algorithme de discrétisation Khiops pour le problème du groupage des mod...
متن کاملVisualisation de données textuelles et inférence statistique
Les principaux outils de visualisation de données multidimensionnelles sont d’une part les analyses en axes principaux, qui portent des noms divers mais qui sont presque toutes fondées sur la décomposition aux valeurs singulières, et d’autre part les méthodes de classification, incluant les cartes auto-organisées de Kohonen. Ces deux familles d’outils sont d’ailleurs complémentaires, et leur us...
متن کامل